30. októbra 2025Slovenčina

Zvýšte výkon vášho kódu v Pythone o celé rády. Tento sprievodca skúma SIMD, vektorizáciu, NumPy a pokročilé knižnice pre globálnych vývojárov.

Odomknutie výkonu: Komplexný sprievodca SIMD a vektorizáciou v Pythone

Vo svete výpočtovej techniky je rýchlosť prvoradá. Či už ste dátový vedec trénujúci model strojového učenia, finančný analytik spúšťajúci simuláciu alebo softvérový inžinier spracovávajúci veľké súbory dát, efektivita vášho kódu priamo ovplyvňuje produktivitu a spotrebu zdrojov. Python, oslavovaný pre svoju jednoduchosť a čitateľnosť, má známu Achillovu pätu: jeho výkon pri výpočtovo náročných úlohách, najmä tých, ktoré zahŕňajú cykly. Ale čo ak by ste mohli vykonávať operácie na celých kolekciách dát naraz, namiesto jedného prvku po druhom? Toto je prísľub vektorizovaných výpočtov, paradigmy poháňanej funkciou CPU nazývanou SIMD.

Tento sprievodca vás zavedie na hĺbkový prieskum sveta operácií SIMD (Single Instruction, Multiple Data) a vektorizácie v Pythone. Prejdeme od základných konceptov architektúry CPU až po praktickú aplikáciu výkonných knižníc ako NumPy, Numba a Cython. Naším cieľom je vybaviť vás, bez ohľadu na vašu geografickú polohu alebo zázemie, vedomosťami na transformáciu vášho pomalého, cyklického kódu v Pythone na vysoko optimalizované, vysokovýkonné aplikácie.

Základy: Porozumenie architektúre CPU a SIMD

Aby sme skutočne ocenili silu vektorizácie, musíme sa najprv pozrieť pod kapotu, ako funguje moderný centrálny procesor (CPU). Kúzlo SIMD nie je softvérový trik; je to hardvérová schopnosť, ktorá zrevolucionalizovala numerické výpočty.

Od SISD k SIMD: Zmena paradigmy vo výpočtoch

Po mnoho rokov bol dominantným modelom výpočtov SISD (Single Instruction, Single Data). Predstavte si kuchára, ktorý starostlivo krája jednu zeleninu po druhej. Kuchár má jednu inštrukciu ("krájať") a pôsobí na jeden kus dát (jedna mrkva). To je analogické s tradičným jadrom CPU, ktoré vykonáva jednu inštrukciu na jeden kus dát za cyklus. Jednoduchý cyklus v Pythone, ktorý sčíta čísla z dvoch zoznamov jedno po druhom, je dokonalým príkladom modelu SISD:

# Konceptuálna operácia SISD result = [] for i in range(len(list_a)): # Jedna inštrukcia (add) na jeden kus dát (a[i], b[i]) naraz result.append(list_a[i] + list_b[i])

Tento prístup je sekvenčný a prináša značnú réžiu od interpretéra Pythonu pre každú iteráciu. Teraz si predstavte, že dáte tomuto kuchárovi špecializovaný stroj, ktorý dokáže nakrájať celý rad štyroch mrkiev naraz jediným potiahnutím páky. Toto je podstata SIMD (Single Instruction, Multiple Data). CPU vydá jednu inštrukciu, ale tá operuje na viacerých dátových bodoch zbalených dohromady v špeciálnom, širokom registri.

Ako SIMD funguje na moderných CPU

Moderné CPU od výrobcov ako Intel a AMD sú vybavené špeciálnymi SIMD registrami a inštrukčnými sadami na vykonávanie týchto paralelných operácií. Tieto registre sú oveľa širšie ako univerzálne registre a môžu naraz pojať viacero dátových prvkov.

SIMD Registre: Sú to veľké hardvérové registre na CPU. Ich veľkosti sa v priebehu času vyvíjali: 128-bitové, 256-bitové a teraz sú bežné aj 512-bitové registre. 256-bitový register napríklad môže obsahovať osem 32-bitových čísel s pohyblivou desatinnou čiarkou alebo štyri 64-bitové čísla s pohyblivou desatinnou čiarkou.
SIMD Inštrukčné sady: CPU majú špecifické inštrukcie na prácu s týmito registrami. Možno ste už počuli o týchto skratkách:
- SSE (Streaming SIMD Extensions): Staršia 128-bitová inštrukčná sada.
- AVX (Advanced Vector Extensions): 256-bitová inštrukčná sada, ktorá ponúka výrazné zvýšenie výkonu.
- AVX2: Rozšírenie AVX s viacerými inštrukciami.
- AVX-512: Výkonná 512-bitová inštrukčná sada, ktorá sa nachádza v mnohých moderných serverových a high-end desktopových CPU.

Vizualizujme si to. Predpokladajme, že chceme sčítať dve polia, `A = [1, 2, 3, 4]` a `B = [5, 6, 7, 8]`, kde každé číslo je 32-bitový integer. Na CPU so 128-bitovými SIMD registrami:

CPU načíta `[1, 2, 3, 4]` do SIMD Registra 1.
CPU načíta `[5, 6, 7, 8]` do SIMD Registra 2.
CPU vykoná jedinú vektorizovanú inštrukciu "add" (`_mm_add_epi32` je príkladom reálnej inštrukcie).
V jedinom takte hodín hardvér vykoná štyri samostatné sčítania paralelne: `1+5`, `2+6`, `3+7`, `4+8`.
Výsledok, `[6, 8, 10, 12]`, sa uloží do iného SIMD registra.

Toto je 4-násobné zrýchlenie oproti prístupu SISD pre jadro výpočtu, a to ani nepočítame masívne zníženie réžie pri odosielaní inštrukcií a správe cyklu.

Výkonnostná medzera: Skalárne vs. Vektorové operácie

Termín pre tradičnú operáciu, ktorá spracováva jeden prvok naraz, je skalárna operácia. Operácia na celom poli alebo dátovom vektore je vektorová operácia. Rozdiel vo výkone nie je malý; môže byť rádový.

Znížená réžia: V Pythone každá iterácia cyklu zahŕňa réžiu: kontrola podmienky cyklu, inkrementácia počítadla a odoslanie operácie cez interpretér. Jedna vektorová operácia má len jedno odoslanie, bez ohľadu na to, či má pole tisíc alebo milión prvkov.
Hardvérový paralelizmus: Ako sme videli, SIMD priamo využíva paralelné spracovateľské jednotky v rámci jedného jadra CPU.
Zlepšená lokalita cache: Vektorizované operácie zvyčajne čítajú dáta zo súvislých blokov pamäte. To je vysoko efektívne pre cache systém CPU, ktorý je navrhnutý tak, aby prednačítaval dáta v sekvenčných blokoch. Náhodné prístupové vzory v cykloch môžu viesť k častým "cache misses", ktoré sú neuveriteľne pomalé.

Pythonický spôsob: Vektorizácia s NumPy

Pochopenie hardvéru je fascinujúce, ale na využitie jeho sily nemusíte písať nízkoúrovňový asemblerový kód. Ekosystém Pythonu má fenomenálnu knižnicu, ktorá robí vektorizáciu prístupnou a intuitívnou: NumPy.

NumPy: Základný kameň vedeckých výpočtov v Pythone

NumPy je základný balík pre numerické výpočty v Pythone. Jeho kľúčovou vlastnosťou je výkonný N-rozmerný objekt poľa, `ndarray`. Skutočné kúzlo NumPy spočíva v tom, že jeho najdôležitejšie rutiny (matematické operácie, manipulácia s poľami atď.) nie sú napísané v Pythone. Sú to vysoko optimalizované, predkompilované kódy v C alebo Fortrane, ktoré sú prepojené s nízkoúrovňovými knižnicami ako BLAS (Basic Linear Algebra Subprograms) a LAPACK (Linear Algebra Package). Tieto knižnice sú často vyladené výrobcom, aby optimálne využívali inštrukčné sady SIMD dostupné na hostiteľskom CPU.

Keď v NumPy napíšete `C = A + B`, nespúšťate cyklus v Pythone. Odosielate jediný príkaz vysoko optimalizovanej C funkcii, ktorá vykonáva sčítanie pomocou SIMD inštrukcií.

Praktický príklad: Od cyklu v Pythone k poľu NumPy

Pozrime sa na to v akcii. Sčítame dve veľké polia čísel, najprv s čistým cyklom v Pythone a potom s NumPy. Tento kód si môžete spustiť v Jupyter Notebooku alebo v skripte Pythonu, aby ste videli výsledky na vlastnom počítači.

Najprv si pripravíme dáta:

import time import numpy as np # Použijeme veľký počet prvkov num_elements = 10_000_000 # Čisté zoznamy v Pythone list_a = [i * 0.5 for i in range(num_elements)] list_b = [i * 0.2 for i in range(num_elements)] # Polia NumPy array_a = np.arange(num_elements) * 0.5 array_b = np.arange(num_elements) * 0.2

Teraz si zmeriame čas čistého cyklu v Pythone:

start_time = time.time() result_list = [0] * num_elements for i in range(num_elements): result_list[i] = list_a[i] + list_b[i] end_time = time.time() python_duration = end_time - start_time print(f"Čistý cyklus v Pythone trval: {python_duration:.6f} sekúnd")

A teraz ekvivalentná operácia v NumPy:

start_time = time.time() result_array = array_a + array_b end_time = time.time() numpy_duration = end_time - start_time print(f"Vektorizovaná operácia NumPy trvala: {numpy_duration:.6f} sekúnd") # Vypočítame zrýchlenie if numpy_duration > 0: print(f"NumPy je približne {python_duration / numpy_duration:.2f}x rýchlejší.")

Na typickom modernom stroji bude výstup ohromujúci. Môžete očakávať, že verzia s NumPy bude kdekoľvek od 50 do 200-krát rýchlejšia. Toto nie je drobná optimalizácia; je to zásadná zmena v spôsobe vykonávania výpočtu.

Univerzálne funkcie (ufuncs): Motor rýchlosti NumPy

Operácia, ktorú sme práve vykonali (`+`), je príkladom univerzálnej funkcie NumPy, alebo ufunc. Sú to funkcie, ktoré operujú na `ndarray` poliach spôsobom prvok po prvku. Sú jadrom vektorizačnej sily NumPy.

Príklady ufuncs zahŕňajú:

Matematické operácie: `np.add`, `np.subtract`, `np.multiply`, `np.divide`, `np.power`.
Trigonometrické funkcie: `np.sin`, `np.cos`, `np.tan`.
Logické operácie: `np.logical_and`, `np.logical_or`, `np.greater`.
Exponenciálne a logaritmické funkcie: `np.exp`, `np.log`.

Tieto operácie môžete reťaziť, aby ste vyjadrili komplexné vzorce bez toho, aby ste kedy napísali explicitný cyklus. Zvážte výpočet Gaussovej funkcie:

# x je pole NumPy s miliónom bodov x = np.linspace(-5, 5, 1_000_000) # Skalárny prístup (veľmi pomalý) result = [] for val in x: term = -0.5 * (val ** 2) result.append((1 / np.sqrt(2 * np.pi)) * np.exp(term)) # Vektorizovaný prístup NumPy (extrémne rýchly) result_vectorized = (1 / np.sqrt(2 * np.pi)) * np.exp(-0.5 * x**2)

Vektorizovaná verzia je nielen dramaticky rýchlejšia, ale aj stručnejšia a čitateľnejšia pre tých, ktorí sú oboznámení s numerickými výpočtami.

Za hranicami základov: Broadcasting a rozloženie pamäte

Vektorizačné schopnosti NumPy sú ďalej vylepšené konceptom nazývaným broadcasting. Ten popisuje, ako NumPy zaobchádza s poľami rôznych tvarov počas aritmetických operácií. Broadcasting vám umožňuje vykonávať operácie medzi veľkým poľom a menším (napr. skalárom) bez explicitného vytvárania kópií menšieho poľa, aby zodpovedalo tvaru väčšieho. To šetrí pamäť a zlepšuje výkon.

Napríklad, ak chcete vynásobiť každý prvok v poli faktorom 10, nemusíte vytvárať pole plné desiatok. Jednoducho napíšete:

my_array = np.array([1, 2, 3, 4]) scaled_array = my_array * 10 # Broadcasting skaláru 10 na celé my_array

Okrem toho je kritické, ako sú dáta usporiadané v pamäti. Polia NumPy sú uložené v súvislom bloku pamäte. To je nevyhnutné pre SIMD, ktoré vyžaduje, aby boli dáta načítavané sekvenčne do jeho širokých registrov. Porozumenie rozloženiu pamäte (napr. C-štýl row-major vs. Fortran-štýl column-major) sa stáva dôležitým pre pokročilé ladenie výkonu, najmä pri práci s viacrozmernými dátami.

Posúvanie hraníc: Pokročilé SIMD knižnice

NumPy je prvým a najdôležitejším nástrojom pre vektorizáciu v Pythone. Čo sa však stane, keď váš algoritmus nemožno ľahko vyjadriť pomocou štandardných ufuncs NumPy? Možno máte cyklus s komplexnou podmienenou logikou alebo vlastný algoritmus, ktorý nie je dostupný v žiadnej knižnici. Tu prichádzajú na rad pokročilejšie nástroje.

Numba: Just-In-Time (JIT) kompilácia pre rýchlosť

Numba je pozoruhodná knižnica, ktorá funguje ako Just-In-Time (JIT) kompilátor. Číta váš kód v Pythone a za behu ho prekladá do vysoko optimalizovaného strojového kódu bez toho, aby ste museli opustiť prostredie Pythonu. Je obzvlášť geniálna v optimalizácii cyklov, ktoré sú primárnou slabinou štandardného Pythonu.

Najbežnejším spôsobom použitia Numby je jej dekorátor, `@jit`. Vezmime si príklad, ktorý je ťažké vektorizovať v NumPy: vlastný simulačný cyklus.

import numpy as np from numba import jit # Hypotetická funkcia, ktorú je ťažké vektorizovať v NumPy def simulate_particles_python(positions, velocities, steps): for _ in range(steps): for i in range(len(positions)): # Nejaká komplexná, dátovo závislá logika if positions[i] > 0: velocities[i] -= 9.8 * 0.01 else: velocities[i] = -velocities[i] * 0.9 # Nepružná zrážka positions[i] += velocities[i] * 0.01 return positions # Presne tá istá funkcia, ale s Numba JIT dekorátorom @jit(nopython=True, fastmath=True) def simulate_particles_numba(positions, velocities, steps): for _ in range(steps): for i in range(len(positions)): if positions[i] > 0: velocities[i] -= 9.8 * 0.01 else: velocities[i] = -velocities[i] * 0.9 positions[i] += velocities[i] * 0.01 return positions

Jednoduchým pridaním dekorátora `@jit(nopython=True)` hovoríte Numbe, aby skompilovala túto funkciu do strojového kódu. Argument `nopython=True` je kľúčový; zaisťuje, že Numba vygeneruje kód, ktorý sa nevracia k pomalému interpretéru Pythonu. Príznak `fastmath=True` umožňuje Numbe používať menej presné, ale rýchlejšie matematické operácie, čo môže umožniť auto-vektorizáciu. Keď kompilátor Numby analyzuje vnútorný cyklus, často bude schopný automaticky generovať SIMD inštrukcie na spracovanie viacerých častíc naraz, dokonca aj s podmienenou logikou, čo vedie k výkonu, ktorý sa vyrovná alebo dokonca prekoná ručne napísaný kód v C.

Cython: Spojenie Pythonu s C/C++

Predtým, ako sa Numba stala populárnou, bol Cython primárnym nástrojom na zrýchlenie kódu v Pythone. Cython je nadmnožinou jazyka Python, ktorá tiež podporuje volanie funkcií C/C++ a deklarovanie C typov pre premenné a atribúty tried. Funguje ako ahead-of-time (AOT) kompilátor. Svoj kód napíšete do súboru `.pyx`, ktorý Cython skompiluje do zdrojového súboru C/C++, ktorý sa následne skompiluje do štandardného rozširujúceho modulu Pythonu.

Hlavnou výhodou Cythonu je jemnozrnná kontrola, ktorú poskytuje. Pridaním statických typových deklarácií môžete odstrániť veľkú časť dynamickej réžie Pythonu.

Jednoduchá funkcia v Cythone môže vyzerať takto:

# V súbore s názvom 'sum_module.pyx' def sum_typed(long[:] arr): cdef long total = 0 cdef int i for i in range(arr.shape[0]): total += arr[i] return total

Tu sa `cdef` používa na deklarovanie premenných na úrovni C (`total`, `i`) a `long[:]` poskytuje typovaný pamäťový pohľad na vstupné pole. To umožňuje Cythonu generovať vysoko efektívny C cyklus. Pre expertov Cython dokonca poskytuje mechanizmy na priame volanie SIMD intrinsík, čo ponúka najvyššiu úroveň kontroly pre výkonnostne kritické aplikácie.

Špecializované knižnice: Pohľad do ekosystému

Vysokovýkonný ekosystém Pythonu je rozsiahly. Okrem NumPy, Numby a Cythonu existujú aj ďalšie špecializované nástroje:

NumExpr: Rýchly vyhodnocovač numerických výrazov, ktorý môže niekedy prekonať NumPy optimalizáciou využitia pamäte a použitím viacerých jadier na vyhodnotenie výrazov ako `2*a + 3*b`.
Pythran: Ahead-of-time (AOT) kompilátor, ktorý prekladá podmnožinu kódu v Pythone, najmä kód používajúci NumPy, do vysoko optimalizovaného C++11, často umožňujúceho agresívnu SIMD vektorizáciu.
Taichi: Jazyk špecifický pre doménu (DSL) vložený v Pythone pre vysokovýkonné paralelné výpočty, obzvlášť populárny v počítačovej grafike a fyzikálnych simuláciách.

Praktické úvahy a osvedčené postupy pre globálne publikum

Písanie vysokovýkonného kódu zahŕňa viac než len použitie správnej knižnice. Tu sú niektoré univerzálne použiteľné osvedčené postupy.

Ako skontrolovať podporu SIMD

Výkon, ktorý získate, závisí od hardvéru, na ktorom beží váš kód. Často je užitočné vedieť, aké sady inštrukcií SIMD daný CPU podporuje. Môžete použiť multiplatformovú knižnicu ako `py-cpuinfo`.

# Nainštalujte pomocou: pip install py-cpuinfo import cpuinfo info = cpuinfo.get_cpu_info() supported_flags = info.get('flags', []) print("Podpora SIMD:") if 'avx512f' in supported_flags: print("- AVX-512 podporované") elif 'avx2' in supported_flags: print("- AVX2 podporované") elif 'avx' in supported_flags: print("- AVX podporované") elif 'sse4_2' in supported_flags: print("- SSE4.2 podporované") else: print("- Základná podpora SSE alebo staršia.")

Toto je kľúčové v globálnom kontexte, pretože cloudové výpočtové inštancie a hardvér používateľov sa môžu v rôznych regiónoch výrazne líšiť. Znalosť hardvérových schopností vám môže pomôcť porozumieť výkonnostným charakteristikám alebo dokonca kompilovať kód so špecifickými optimalizáciami.

Dôležitosť dátových typov

SIMD operácie sú vysoko špecifické pre dátové typy (`dtype` v NumPy). Šírka vášho SIMD registra je pevná. To znamená, že ak použijete menší dátový typ, zmestíte do jedného registra viac prvkov a spracujete viac dát na jednu inštrukciu.

Napríklad, 256-bitový AVX register môže obsahovať:

Štyri 64-bitové čísla s pohyblivou desatinnou čiarkou (`float64` alebo `double`).
Osem 32-bitových čísel s pohyblivou desatinnou čiarkou (`float32` alebo `float`).

Ak požiadavky na presnosť vašej aplikácie môžu byť splnené 32-bitovými floatmi, jednoduchá zmena `dtype` vašich polí NumPy z `np.float64` (predvolený na mnohých systémoch) na `np.float32` môže potenciálne zdvojnásobiť váš výpočtový výkon na hardvéri s podporou AVX. Vždy si vyberte najmenší dátový typ, ktorý poskytuje dostatočnú presnosť pre váš problém.

Kedy NEvektorizovať

Vektorizácia nie je všeliekom. Existujú scenáre, kde je neúčinná alebo dokonca kontraproduktívna:

Dátovo závislý tok riadenia: Cykly s komplexnými vetvami `if-elif-else`, ktoré sú nepredvídateľné a vedú k divergentným cestám vykonávania, sú pre kompilátory veľmi ťažké automaticky vektorizovať.
Sekvenčné závislosti: Ak výpočet pre jeden prvok závisí od výsledku predchádzajúceho prvku (napr. v niektorých rekurzívnych vzorcoch), problém je vo svojej podstate sekvenčný a nemožno ho paralelizovať pomocou SIMD.
Malé súbory dát: Pre veľmi malé polia (napr. menej ako tucet prvkov) môže byť réžia nastavenia volania vektorizovanej funkcie v NumPy väčšia ako náklady na jednoduchý, priamy cyklus v Pythone.
Nepravidelný prístup do pamäte: Ak váš algoritmus vyžaduje skákanie v pamäti nepredvídateľným spôsobom, zmarí to mechanizmy cache a prefetching CPU, čím sa zruší kľúčová výhoda SIMD.

Prípadová štúdia: Spracovanie obrazu pomocou SIMD

Upevnime si tieto koncepty praktickým príkladom: konverzia farebného obrázka na odtiene sivej. Obrázok je len 3D pole čísel (výška x šírka x farebné kanály), čo z neho robí dokonalého kandidáta na vektorizáciu.

Štandardný vzorec pre jas je: `Odtiene sivej = 0.299 * R + 0.587 * G + 0.114 * B`.

Predpokladajme, že máme obrázok načítaný ako pole NumPy s tvarom `(1920, 1080, 3)` s dátovým typom `uint8`.

Metóda 1: Čistý cyklus v Pythone (Pomalý spôsob)

def to_grayscale_python(image): h, w, _ = image.shape grayscale_image = np.zeros((h, w), dtype=np.uint8) for r in range(h): for c in range(w): pixel = image[r, c] gray_value = 0.299 * pixel[0] + 0.587 * pixel[1] + 0.114 * pixel[2] grayscale_image[r, c] = int(gray_value) return grayscale_image

Toto zahŕňa tri vnorené cykly a bude neuveriteľne pomalé pre obrázok s vysokým rozlíšením.

Metóda 2: Vektorizácia v NumPy (Rýchly spôsob)

def to_grayscale_numpy(image): # Definujeme váhy pre kanály R, G, B weights = np.array([0.299, 0.587, 0.114]) # Použijeme skalárny súčin pozdĺž poslednej osi (farebné kanály) grayscale_image = np.dot(image[...,:3], weights).astype(np.uint8) return grayscale_image

V tejto verzii vykonávame skalárny súčin. Funkcia `np.dot` v NumPy je vysoko optimalizovaná a použije SIMD na násobenie a sčítanie hodnôt R, G, B pre mnoho pixelov súčasne. Rozdiel vo výkone bude ako deň a noc – ľahko 100-násobné zrýchlenie alebo viac.

Budúcnosť: SIMD a vyvíjajúce sa prostredie Pythonu

Svet vysokovýkonného Pythonu sa neustále vyvíja. Známy Globálny zámok interpretéra (GIL), ktorý bráni viacerým vláknam vykonávať Python bytecode paralelne, je spochybňovaný. Projekty zamerané na to, aby sa GIL stal voliteľným, by mohli otvoriť nové cesty pre paralelizmus. SIMD však funguje na úrovni pod jadrom a GIL ho neovplyvňuje, čo z neho robí spoľahlivú a do budúcnosti orientovanú optimalizačnú stratégiu.

Ako sa hardvér stáva rozmanitejším, so špecializovanými akcelerátormi a výkonnejšími vektorovými jednotkami, nástroje, ktoré abstrahujú hardvérové detaily a zároveň poskytujú výkon – ako NumPy a Numba – sa stanú ešte dôležitejšími. Ďalším krokom od SIMD v rámci CPU je často SIMT (Single Instruction, Multiple Threads) na GPU a knižnice ako CuPy (priama náhrada za NumPy na NVIDIA GPU) uplatňujú rovnaké princípy vektorizácie v ešte masívnejšom meradle.

Záver: Osvojte si vektor

Prešli sme od jadra CPU k vysokoúrovňovým abstrakciám Pythonu. Kľúčovým poznatkom je, že na písanie rýchleho numerického kódu v Pythone musíte myslieť v poliach, nie v cykloch. Toto je podstata vektorizácie.

Zhrňme si našu cestu:

Problém: Čisté cykly v Pythone sú pomalé pre numerické úlohy kvôli réžii interpretéra.
Hardvérové riešenie: SIMD umožňuje jednému jadru CPU vykonávať tú istú operáciu na viacerých dátových bodoch súčasne.
Primárny nástroj v Pythone: NumPy je základným kameňom vektorizácie, poskytuje intuitívny objekt poľa a bohatú knižnicu ufuncs, ktoré sa vykonávajú ako optimalizovaný, SIMD-povolený kód v C/Fortrane.
Pokročilé nástroje: Pre vlastné algoritmy, ktoré sa nedajú ľahko vyjadriť v NumPy, poskytuje Numba JIT kompiláciu na automatickú optimalizáciu vašich cyklov, zatiaľ čo Cython ponúka jemnozrnnú kontrolu spojením Pythonu s C.
Myšlienkový prístup: Efektívna optimalizácia si vyžaduje pochopenie dátových typov, pamäťových vzorov a výber správneho nástroja pre danú úlohu.

Keď sa nabudúce pristihnete pri písaní `for` cyklu na spracovanie veľkého zoznamu čísel, zastavte sa a opýtajte sa: "Môžem to vyjadriť ako vektorovú operáciu?" Osvojením si tohto vektorizovaného myslenia môžete odomknúť skutočný výkon moderného hardvéru a pozdvihnúť vaše aplikácie v Pythone na novú úroveň rýchlosti a efektivity, bez ohľadu na to, kde na svete programujete.